04_하이브리드 네트워크 가용성 설계
문제
온프레미스 데이터센터와 클라우드를 연결하는 전용선이 단일 회선으로 구성되어, 해당 회선의 장애나 점검 발생 시 하이브리드 환경의 서비스가 전면 중단될 위험이 있습니다. 비즈니스 연속성을 위해 Enterprise급 가용성을 확보해야 합니다.
전용선의 이중화(Active-Active vs Active-Passive) 설계 방식을 비교하고, 전용선 장애 시 Site-to-Site VPN으로 Failover되는 구조를 BGP (Border Gateway Protocol) 우선순위 관점에서 설명하시오.
답안
가용성 설계 = 비즈니스 리스크 관리
가용성 설계의 핵심은 트래픽의 **방향성(Inbound vs Outbound) 따라 적절한 BGP 속성을 적용하여, 장애 시 수 초 내에 자동으로 경로를 전환하는 '자동화된 탄력성'을 확보하는 데 있습니다.
1. 주요 용어 상세 정의
| 용어 | 풀네임 및 정의 | 핵심 역할 및 특징 |
|---|---|---|
| AS | Autonomous System (자율 시스템) | 하나의 관리 주체(기업, ISP 등)가 운영하는 독립적인 네트워크 단위. 고유한 ASN(AS 번호)을 가집니다. |
| BGP | Border Gateway Protocol | 서로 다른 AS 간에 경로 정보를 교환하는 표준 프로토콜. 경로의 '길이'와 '속성'을 보고 최적 경로를 결정합니다. |
| DX | Direct Connect (전용선) | 클라우드와 온프레미스를 물리적으로 직접 연결하는 전용 회선. 보안성과 일관된 성능을 보장합니다. |
| LP | Local Preference (지역 선호도) | AS 내부에서 외부로 나가는 트래픽의 출구를 결정할 때 사용. 값이 클수록 우선순위가 높습니다. |
| AS-Path | AS Path Prepending | 자신의 AS 번호를 인위적으로 여러 번 추가하여 경로를 길게 만드는 기법. 경로가 짧을수록 우선순위가 높습니다. |
| 경로 전파 | Route Propagation | 자신의 네트워크 대역 정보를 인접한 라우터에 알려주는 과정 (기존 '광고'의 기술적 표현). |
2. 하이브리드 가용성 설계: 트래픽 방향별 제어 전략
전용선(주 회선)과 VPN(백업)이 공존할 때, 양방향 트래픽이 의도한 대로 흐르도록 설정하는 것이 핵심입니다.
A. Inbound 제어 (온프레미스 → 클라우드)
- 결정 주체: 온프레미스 라우터 (나가는 문을 직접 결정)
- 사용 속성: Local Preference (LP)
- 메커니즘:
- 온프레미스 라우터는 클라우드로부터 DX와 VPN 양쪽으로 라우팅 정보를 전달받습니다.
- DX를 통해 수신된 경로에는 LP 200, VPN을 통해 수신된 경로에는 LP 100을 부여합니다.
- AS 내부의 모든 장비는 LP가 높은 DX를 클라우드로 가는 '최적의 출구'로 인식합니다.
- 장애 시: DX 연결이 중단되면 LP 200 경로가 삭제되고, 차선책인 LP 100(VPN) 경로가 즉시 활성화됩니다.
B. Outbound 제어 (클라우드 → 온프레미스)
- 결정 주체: 클라우드 측 라우터 (온프레미스가 보낸 경로 알림을 보고 결정)
- 사용 속성: AS Path Prepending
- 메커니즘:
- 온프레미스 라우터가 자신의 네트워크 대역을 클라우드에 전파할 때, VPN 경로에는 자신의 AS 번호를 여러 번 중복해서 붙입니다 (예:
65000 65000 65000). - 클라우드 라우터는 DX 경로(길이 1)와 VPN 경로(길이 3)를 비교합니다.
- BGP의 "Shortest AS Path" 원칙에 따라 더 짧은 DX를 최적 경로로 선택합니다.
- 온프레미스 라우터가 자신의 네트워크 대역을 클라우드에 전파할 때, VPN 경로에는 자신의 AS 번호를 여러 번 중복해서 붙입니다 (예:
- 장애 시: 클라우드 라우터에서 DX 경로 정보가 사라지면, 비록 길지만 유일하게 남은 VPN 경로를 통해 온프레미스로 패킷을 보냅니다.
심화 답안
1. 전용선 이중화 설계 방식 (Active-Active vs Active-Passive)
| 구분 | Active-Active (부하 분산) | Active-Passive (대기 구조) |
|---|---|---|
| 트래픽 흐름 | 두 DX 회선을 동시에 사용 (ECMP 활용) | 평상시 DX1만 사용, 장애 시 DX2 전환 |
| BGP 설정 | 양측에 동일한 LP 및 AS-Path 설정 | 주 회선에 높은 LP, 부 회선에 낮은 LP 설정 |
| 장점 | 가용 대역폭 합산 (1G + 1G = 2G 효과) | 경로가 단순하여 트러블슈팅이 매우 용이함 |
| 주의사항 | 회선 장애 시 리스크: 한쪽 장애 시 남은 1G 회선이 전체 2G 트래픽을 감당 못 할 수 있음 | 유휴 자원에 대한 비용 발생 (Standby 회선) |
2. 엔터프라이즈급 가용성을 위한 추가 기술: BFD (Bidirectional Forwarding Detection)
일반적인 BGP는 인접 라우터와의 '생존 확인(Keepalive)' 주기가 길어(보통 90초~180초), 회선 장애 발생 후 경로 전환까지 수 분이 걸릴 수 있습니다.
- BFD의 역할: 초당 수 차례 마이크로 패킷을 주고받아 밀리초(ms) 단위로 장애를 감지합니다.
- 연동 효과: BFD가 장애를 감지하는 즉시 BGP 세션을 강제 종료시켜, 1~3초 내에 VPN으로 Failover를 완료할 수 있게 합니다.
3. MTU 및 MSS Clamping 이슈 (중요)
전용선에서 VPN으로 Failover 될 때 가장 많이 발생하는 장애는 **"특정 웹페이지나 큰 파일이 안 열리는 현상"입니다.
- 원인: VPN은 암호화(IPsec) 과정에서 패킷 헤더가 추가되어 실제 데이터가 들어갈 공간(Payload)이 줄어듭니다. (일반 MTU 1500 → VPN MTU 1427 수준)
- 해결: 라우터에서 MSS Clamping 설정을 통해 패킷 크기를 VPN 규격에 맞게 강제 조정해야만 Failover 시에도 서비스 끊김이 없습니다.
4. 아키텍처 다이어그램 (BGP 속성 적용 가이드)
flowchart TD
subgraph Cloud [Cloud VPC / VNet]
VGW[Virtual Gateway]
end
subgraph OnPrem [On-Premise Data Center]
R1[DX Router 1]
R2[VPN Router]
end
%% Inbound 제어 (On-Prem -> Cloud)
R1 -- "LP 200 (Highest)" --> VGW
R2 -- "LP 100 (Backup)" --> VGW
%% Outbound 제어 (Cloud -> On-Prem)
VGW -- "Short AS-Path (Best)" --> R1
VGW -- "Long AS-Path (Prepending)" --> R2
linkStyle 0,2 stroke:#2ecc71,stroke-width:4px
linkStyle 1,3 stroke:#e74c3c,stroke-width:2px,stroke-dasharray: 5 5최종 요약:
Inbound는 LP로, Outbound는 AS-Path Prepending으로 제어 주도권을 확보해야 합니다. 또한 BFD를 통한 빠른 전환과 MSS Clamping을 통한 패킷 최적화까지 고려해야만 Enterprise급 가용성을 달성할 수 있습니다.